% !Mode:: "TeX:UTF-8"
% Общие поля титульного листа диссертации и автореферата
\institution{Московский государственный университет имени М. В. Ломоносова}

\topic{Построение тестовых программ для проверки подсистем управления памяти микропроцессоров}

\author{Корныхин Евгений Валерьевич}

\specnum{05.13.11}
\spec{математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей}

\sa{Петренко Александр Константинович}
\sastatus{д.~ф.-м.~н., проф.}

\city{Москва}
\date{\number\year}

% Общие разделы автореферата и диссертации
\mkcommonsect{actuality}{Актуальность темы}{

%%%Актуальность методов в общем
Разрешение лексической многозначности является одной из центральных задач обработки текстов.
Задача заключается в установлении значений слов или составных терминов в соответствии с контекстом, в котором они использовались.
Разрешение лексической многозначности используется для повышения точности методов классификации и кластеризации текстов, увеличения качества машинного перевода, информационного поиска и других приложений.

Для решения задачи необходимо определить возможные значения слов и отношения между этими значениями и контекстом, в котором использовались слова.
На данный момент основным источником значений являются словари и энциклопедии.
Для установления связей между значениями лингвистами создаются тезаурусы, семантические сети и другие специализированные структуры.
Однако создание таких ресурсов требует огромных трудозатрат.


%%%%%%%%%%%%%%%%% Актуальность применения сетей документов и Википедии
В начале 21-го века исследователи в области обработки естественного языка заинтересовались возможностью использования сетей документов, таких как Веб и Википедия, связанных гиперссылками, созданных огромным числом независимых пользователей, и обладающих высокой степенью актуальности.

Открытая энциклопедия Википедия является беспрецедентным ресурсом.
Она позволяет автоматически составить словарь терминов, достаточный для описания любых текстовых документов, сопоставить термины со значениями, описанными в статьях Википедии, и на основе ссылочной структуры вывести отношения между этими значениями.
Словарь Википедии позволяет автоматически находить в документах как отдельные слова, так и составные термины. На основе разрешения лексической многозначности выделенных терминов, возможно определить основные тематические линии, нахождение которых необходимо для большого числа практических приложений.

}

\mkcommonsect{objective}{Цель диссертационной работы}{

Целью диссертационной работы является разработка методов и программных средств разрешения лексической многозначности терминов на основе структурной и текстовой информации сетей документов.
Разрабатываемые методы должны обладать следующими свойствами:
%\begin{itemize}
%\item
они должны быть полностью автоматическими;
%\item
соотношение точности и полноты должно быть равно или превышать аналогичный показатель методов, представленных в современной литературе;
%\item
время работы алгоритмов должно линейно зависеть от количества обрабатываемых терминов;
%\item
методы не должны быть привязаны к синтаксису конкретных языков.
%\end{itemize}

Для достижения этой цели были поставлены следующие задачи:
\begin{enumerate}
\item
разработать метод для автоматического определения отношений между значениями терминов Википедии;
\item
разработать методы разрешения лексической многозначности терминов, на основе структурной и текстовой информации Википедии.
\end{enumerate}
}

\mkcommonsect{novelty}{Научная новизна}{

Научной новизной обладают следующие результаты работы:
\begin{enumerate}
\item
предложен подход к разрешению лексической многозначности терминов на основе сети документов Википедии.
\item
разработан метод разрешения лексической многозначности, основанный на Марковской модели высокого порядка, где параметры модели оценивались на основе структурной и текстовой информации Википедии;
\item
предложено обобщение Марковской модели на случай множества независимых Марковских процессов и разработан алгоритм вычисления наиболее вероятной последовательности состояний, удовлетворяющей ограничениям модели;
\item
разработан метод разрешения лексической многозначности и выделения лексических цепей, основанный на обобщенной Марковской модели.
\end{enumerate}
}

\mkcommonsect{value}{Практическая значимость}{
Разработанные методы разрешения лексической многозначности, основанные на Википедии, могут применяться для повышения точности реальных практических приложений, предназначенных для обработки и анализа текстовых данных.


На основе предложенных методов разработан прототип системы разрешения лексической многозначности.
Этот прототип был использован в качестве основы для создания в Институте системного программирования РАН системы анализа текстов <<Texterra>>.
}

\mkcommonsect{pub}{Апробация работы и Публикации.}{

По материалам диссертации опубликовано восемь работ~\cite{Turdakov07, TurdakovV08, LizorkinVGT08, GrinevaGTVB08, Programming, RCDL09, LizorkinVGT09, PACLIC09}.
Основные положения докладывались на следующих конференциях и семинарах:
\begin{itemize}
\item
на четвертом и пятом весеннем коллоквиуме молодых исследователей в области баз данных и информационных систем (SYRCoDIS) (2007 и 2008 гг.);
\item
на сто двадцать пятом и сто тридцать шестом заседаниях Московской Секции ACM SIGMOD (2008 и 2009 гг.);
\item
на тридцать четвертой международной конференции по очень большим базам данных (VLDB) (2008 г.);
\item
на международном симпозиуме по извлечению знаний из социального Веба (KASW) (2008 г.);
\item
на одиннадцатой Всероссийской научной конференции <<Электронные библиотеки: перспективные методы и технологии, электронные коллекции>> (2009 г.);
\item
на двадцать третей международной конференции по проблемам языка, информации и вычислений (PACLIC) (2009 г.).
\end{itemize}
}


\mkcommonsect{struct}{Структура и объем диссертации}{

Работа состоит из введения, трех глав, заключения и списка литературы.
Общий объем диссертации составляет $138$ страниц.
Список литературы содержит $119$ наименований.
}

